強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
https://www.slideshare.net/ShotaImai3/rlssdeepreinforcementlearning
東京大学 松尾研究室 今井翔太
雑にすら読めない…nomadoor.icon
低レイヤーな人のためのディープラーニングぐらいから始めようかなwogikaze.icon
雑に読んでいくwogikaze.icon
(ただし数式はわからない)
https://gyazo.com/2a664434eca859aa90bfdabd23430b8e
強化学習の発展フローチャート
強化学習の簡単な理解
Agent(操作対象)とEnviroment(環境)があり、Agentを良い感じに動かす方法を探す
基本:単純なゲーム(CartPoleとか)
応用例:ロボット操作
強化学習の特性p16
遅延報酬
これはtransformerのattentionに似ているところもあるねwogikaze.icon
探索と活用のトレードオフ
ε-greedy法
マルコフ決定過程(MDP)p20
部分観測マルコフ決定過程(POMDP)p21
情報の一部しか観測できない
RNN.LSTMで対応
割引率/価値関数p22
モデルフリー強化学習とモデルベース強化学習
https://zenn.dev/naoaki_h/articles/bb806a44cc4d9f#モデルベースとモデルフリーとかを読んでも全くわからないのでそれぞれが出てきたときにふわっと理解できたらいいなwogikaze.icon
Q学習p31
行動ごとに行動価値をテーブルにまとめ、最も報酬が大きいものを選ぶ
TD(λ)p34
前方観測
LLMのBeam searchみたいな?wogikaze.icon
後方観測
テーブル形式学習の限界/関数近似による強化学習p36~
行動空間が連続のときテーブルだと学習が進まないのを解決
方策勾配法
モンテカルロ方策勾配法
Actor-Critic
第二部:深層強化学習p46
DQN(Deep Q-Networks)p48
工夫p51
Target Network
経験再生
画像:CNNの利用
ベンチマークp55
Atari2600 /villagepump/ATARI
Double DQNp59
行動選択と価値評価で分ける
価値を正しく評価できる
Prioritized Experience Reply
学習効果が高い経験再生を優先的にする
Dueling Networkp65
Categorical DQN/C51p69
行動で得られる報酬を分布でモデル化する
C51凄いな、試してくるwogikaze.icon
Stable Baselines3にC51なかった
代わりに応用したQR DQNがあったのでこっちを使ってみた
学習待ち
https://gyazo.com/326ee876948e14383a3dcc125a9d5a6c
アンビリーバボーwogikaze.icon
ピーポーピーポーwogikaze.icon
39it/s出てるな...やはり画像生成とかLLMのタスクが重すぎるんだ
Noisy Networkp74
探索をさせる場合、大規模な探索をするにはε-greedy法では単調すぎる
Neural networkのパラメータそのものにノイズを与える事で長期的な影響を与える
Rainbow/discordwiki/rainbow.iconp77
https://gyazo.com/78c21d0566424b3858a89d83314b6c56
グラフの色が頭悪くてすきwogikaze.icon
分散型深層強化学習p81
Gorila
A3C
Actor-Criticを使った
経験再生を廃止
Ape-X
ActorをCPU,リプレイバッファから優先度をつけて学習するLearnerをGPU上で動かす
R2D2
内発的報酬の導入p100
報酬の獲得が難しい or 探索空間が大きい
カウントベース
テーブル形式学習と同じ問題(状態が多いor連続だとカウントが0になる)が起きる
Intrinsic Curiosity Module(ICM)
予測誤差により内発的報酬を生成
VIME
RND(Random Network Distillation)
この辺の理解できないwogikaze.icon
Go-Explore
https://gyazo.com/6b0f4283493e38088415f89098154608
そうはならんやろwogikaze.icon
世界モデルp119
V:環境の観測をVAEで圧縮した潜在表現を得る
M:Vの潜在変数とCの行動を入力としてMDN-RNNで予測
C:V,Mを元に行動→CMA-ESで方策最適化
SiMPLe(Simulated Policy Learning)p120
効率的に学習するモデルベース強化学習
MuZerop121
環境モデル学習+木探索
Never Give Up(NGU)p122
Agent57p129
Atariの57ゲームで人間のスコアを超える
AlphaGop136
AlphaGo Zerop137
人間の棋譜データを使わずにAlphaGo以上
OpenAI Fivep139
計算量の暴力
AlphaStarp140